benchmark

从理论到实践:构建高水准大模型评测体系的权威指南

大语言模型(LLM)加速渗透各行业的同时,其 “黑盒” 特性也让模型能力的科学衡量成为难题 —— 技术选型时该参考哪些指标?迭代优化中如何验证效果?一套完善的评测体系既是衡量模型的 “标尺”,更是驱动其进化的 “引擎”。本文围绕大模型评测的核心逻辑,先拆解 “

模型 llm 评测 权威 benchmark 2025-09-23 16:56  5

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)。通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。团队长期从事人工智能研究,成

模型 模态 研究 benchmark codebase 2025-09-08 10:25  6